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评估 零 效应 的 三 种 统计 方法 


摘 要 在 心理 学 研究 中 ， 以 下 两 种 情况 下 研究 者 需要 评估 效应 是 否 不 严 左 : (1) 研究 设计 或 者 假设 中 需 


要 证 明 
某 个 效应 不 存在 ; (OD 研究 者 本 意 是 要 拒绝 零 效应 但 未 能 拒绝 〈 即 意外 出 现 p > 0.05 的 结果 )， 需 要 进一步 区 分 


是 证 据 不 足 还 是 效应 本 身 不 存在 。 然 而 ， 常 用 的 原 假设 显著 性 检验 (Null hypothesis significance test, NHST) 无 法 提 


供 支 持 零 效应 的 证 据 。 近 年 来 ， 等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 三 种 方法 逐渐 被 用 于 评估 零 效 应 。 文 章 介 
绍 了 三 种 方法 的 原理 ， 并 通过 两 个 实例 分 析 ， 展 示 三 种 方法 的 实际 应 用 。 三 种 方法 各 有 特点 : 等 价 检验 在 逻辑 
上 是 对 NHST 的 拓展 ， 易 于 从 传统 统计 中 延伸 使 用 ， 贝 叶 斯 因子 的 解读 符合 直觉 逻辑 上 清晰 ， 贝 叶 斯 估计 则 
具有 较 强 的 灵活 性 ， 可 拓展 于 更 多 的 研究 问题 。 三 种 评估 零 效应 的 方法 ， 可 能 能 够 帮助 心理 学 研究 者 在 实际 研 


究 中 进行 合理 的 统计 推断 和 研究 决策 。 


关键 词 零 效 应 ; bp 值 ， 等 价 检验 ， 贝 叶 斯 估计 ; 贝 叶 斯 因子 


ill 
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原 假设 显著 性 检验 (Null hypothesis significance test, NHST， 也 翻译 为 零 假 设 显 著 性 检验 或 者 虚无 假设 显著 
性 检验 ) 是 目前 使 用 最 为 广泛 的 统计 推断 方法 。 在 NHST 框架 下 ， 研 究 者 通常 在 假定 原 假 设 为 真 的 前 提 下 ， 根 
据 p 值 是 否 小 于 预先 设 定 的 a CU: a = .05) 决定 是 否 拒绝 原 假 设 (Wasserstein & Lazar, 2016)， 进 而 做 出 是 否 接 
受 备 择 假 设 的 统计 推 上 新 。 然 而 ，P (OK T a 的 结果 《〈 即 不 显著 的 结果 ) 并 不 能 作为 支持 原 假 设 (Null hypothesis, 
Ho) 的 证 据 (Greenland et al., 2016; Wasserstein & Lazar, 2016)。 正 是 由 于 NHST 的 理论 前 提 是 假定 原 假 设 为 真 ， 
此 ， 无 论 p 值 是 否 小 于 0.05， 均 无 法 评估 原 假 设 本 身 是 否 为 真 。 也 就 是 说 ， 如 果 研 究 者 的 原 假 设 是 零 效 应 (Null 
effect)， 即 “效应 量 为 零 ” 或 者 “效应 不 存在 ”时 ， 无 论 p 值 大 小 如 何 ， 均 无 法 评估 零 效 应 。 

在 实际 研究 中 ， 研 究 者 经 常 需要 评估 零 效 应 。 例 如 ， 在 一 些 实验 组 /控制 组 匹配 的 研究 设计 中 ， 研 究 者 需要 
对 无 关 变 量 进行 匹配 〈 如 : 两 组 被 试 的 性 别 、 年 龄 )， 即 希望 通过 统计 推断 得 到 “两 组 被 试 在 这 些 无 关 变 量 上 没 
有 差异 ”的 结论 。 又 如 ， 某 些 理论 的 假设 可 能 在 特定 情况 下 效应 不 存在 ， 证 实 零 效应 可 为 这 些 理论 提供 支持 。 
© 另外 ， 当 不 显著 结果 与 研究 者 的 预期 不 符 时 ， 研 究 者 同样 需要 合理 评估 支持 零 效 应 的 证 据 强 度 ， 从 不 显著 结果 
中 获取 更 多 有 效 信息 ， 帮 助 研究 决策 (Harms & Lakens, 2018). 
二 ”由 于 能 够 有 效 评估 零 效 应 的 统计 方法 在 心理 学 研究 中 鲜 有 提 及 ， 许 多 研究 者 错误 地 使 用 不 显著 结果 来 支持 


零 效 应 (Amrhein, Greenland, & McShane, 2019; Gigerenzer, 2004, 2018; Greenland et al., 2016; X. Lyu, Xu, Zhao, Zuo, 


& Hu, 2020; Z. Lyu, Peng, & Hu, 2018). Lyu 等 人 (2020) 的 调查 发 现 有 超过 半数 (54%) 的 心理 系 学 生 或 研究 者 将 
p> .05 解读 为 “证 实 了 原 假设 ”。 对 已 发 表 论文 的 分 析 也 表明 ， 研 究 者 易 将 “p > .05” 的 结果 作为 “支持 零 效 应 ” 
的 证 据 (Aczel et al., 2018; 王 瑞 等 , 2021)。 对 不 显著 结果 的 错误 解读 可 能 会 直接 导致 统计 推 师 出 现 偏差 。 例 如 ， 匹 
配 组 研究 中 ， 对 年 龄 进行 独立 样本 1 检验 后 得 到 p > .05， 即 使 结果 发 现 两 组 差异 的 效应 量 Cohen's d 很 小 (如 小 
于 0.3)， 也 并 不 能 通过 统计 推断 得 到 两 组 被 试 的 年 龄 无 差异 《或 等 价 ) 的 结论 ， 此 时 如 果 推 断 组 间 年 龄 没有 差 
异 则 可 能 导致 对 实验 操纵 效应 的 错误 推断 。 另 外 ， 忽 视 对 NHST 下 不 显著 结果 的 进一步 分 析 ， 错 误 地 认为 所 有 
的 不 显著 结果 都 没有 发 表 价 值 ， 会 进一步 加 深 发 表 偏见 (Forstmeier, Wagenmakers, & Parker, 2017). 

综 上 ， 研 究 者 需要 合适 的 统计 方法 来 评估 零 效应 。 近 年 来 ， 研 究 者 提出 了 三 种 可 以 用 来 评估 零 效应 的 方法 


一 一 等 价 检 验 (Equivalence test)(Meyners, 2012; Rogers, Howard, & Vessey，1993)、 贝 叶 斯 估计 (Bayesian 


estimation)(Kruschke, 2011; McElreath，2020) 和 贝 叶 斯 因子 (Bayes factor)(Aczel et al, 2018; 胡 传 鹏 , FL #F tyi, 


Wagenmakers, Ly, 彭 凯 平 , 2018)。 本 文 将 介绍 三 者 的 原理 ， 并 结合 两 个 实例 来 讨论 并 对 比 三 者 的 特点 。 


2 等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 的 原理 
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评估 零 效应 的 思路 主要 有 两 种 。 一 种 思路 是 设 定 了 一 个 足够 小 的 ， 几 乎 可 以 认为 效应 为 零 的 区 间 ， 用 于 


评估 零 效应 (Meyners, 2012; Rogers et al., 1993)。 这 一 区 间 即 为 “最 小 感 兴趣 的 效应 量 区 间 ”， 也 简称 为 “最 小 感 


MERX” (Smallest effect size of interest, SESOI)。 目 标 效 应 量 在 SESOI 内 时 ， 研 究 者 可 以 认为 效应 量 几乎 为 零 ， 


可 以 忽略 不 计 。 采 用 这 种 思路 进行 统计 推断 的 方法 有 两 种 ， 分 别 是 频率 统计 框架 下 的 等 价 检验 和 贝 叶 斯 统计 杠 


FH 


架 下 的 贝 叶 斯 估计 。 另 一 种 思路 ， 如 贝 叶 斯 因子 所 采用 的 ， 则 回避 效应 量 是 否 为 零 的 问题 ， 比 较 假定 效应 量 为 


零 的 原 假设 与 假定 效应 量 不 为 零 的 备 择 假 设 在 当前 数据 下 出 现 的 可 能 性 ， 从 而 推断 当前 数据 更 支持 哪个 假设 。 


2.1 等 价 检验 


等 价 检验 从 传统 NHST 扩展 而 来 ， 目 的 是 评估 当前 效应 量 是 否 足 够 小 。 等 价 检验 的 逻辑 来 源 于 最 小 效应 量 


检验 CMinimal-effects test) (Murphy, Myors, & Wolach, 2014). NHST 是 将 效应 量 与 零 做 比较 ， 判 断 当 前 数据 在 假 


定 效应 为 零 (Ho) 的 情况 下 出 现 的 概率 是 否 足 够 小 ， 从 而 推断 是 否 拒绝 原 假设 〈 


为 一 个 区 间 ， 比 如 [-0.1, 0.1]， 拒 绝 原 假设 则 要 求 效 应 量 要 么 显著 大 于 0.1， 要 么 显 


行 两 次 单 侧 检验 。 这 种 做 法 被 称 为 最 小 效应 量 检验 。 


图 1A)。 如 果 研 究 者 将 Ho 设 定 


著 小 于 -0.1 (图 1B)， 需 要 进 


等 价 检验 则 正好 将 最 小 效应 量 检 验 的 Ho 与 Hi 所 对 应 的 效应 区 间 对 调 ，Hi 在 区 间 之 内 ， 而 Ho 在 区 间 之 外 


(Lakens, McLatchie, Isager, Scheel, & Dienes, 2018; Lakens, Scheel, & Isager, 2018). 


检验 的 原 假设 是 效应 量 要 么 大 于 0.1, BAF -0.1 的 区 间 CA 1C)， 即 “存在 


如 果 SESOI 为 [-0.1, 0.1]， 等 价 
意义 的 效应 ” 其 备 择 假设 是 


效应 量 在 [-0.1, 0.1] 之 间 ， 即 效应 量 太 小 而 可 以 认为 “不 存在 有 意义 的 效应 ”。 如果 当前 数据 拒绝 了 原 假设 ， 则 可 


以 接受 备 择 假设 ， 即 “不 存在 有 意义 的 效应 ”。 


等 价 检验 中 的 原 假 设 和 备 择 假设 除了 与 传统 NHST 的 原 假设 和 备 择 假设 具有 不 同 的 意义 之 外 ， 其 对 于 原 假 


设 的 设 定 要 求 更 高 。 相 对 于 NHST 中 原 假设 假定 效应 量 为 零 ， 在 等 价 检验 中 ， 太 


osfio/6mzr9)， 且 必须 有 合理 的 原因 。 


究 者 需要 指明 的 是 原 假 设 的 范 


围 ， 即 备 择 假设 (SESOI) 之 外 的 区 间 。 结 合 已 有 研究 和 实际 情况 ，SESOI 的 设 定 有 特定 的 方式 ( 详 见 补充 材料 : 
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图 1. 等 价 检验 和 贝 叶 斯 估计 的 原理 示意 图 。(A) 传统 原 假设 显著 性 检验 ; CB) 最 小 效应 量 检验 ;〈C) 等 价 


检验 。AL 表示 最 小 感 兴趣 区 CSESOD 的 下 限 ，AU 表示 SESOI 的 上 限 ; Ho: 原 假设 ，H1: 备 择 假设 。 贝 叶 斯 


估计 推断 中 ， 结 合 最 高 密度 区 间 ODD 和 实际 等 价 区 CROPEO 评估 效应 量 9 的 可 信 程 度 。 评 估 有 三 种 可 能 的 


实际 检验 过 程 中 ， 等 价 检验 需要 将 实际 数据 与 SESOI 的 下 限 AL 和 上 限 AU 分 别 进行 单 侧 的 显著 性 检验 ， 即 
两 次 单 侧 检 验 (Two one-side tests, TOST)。 一 次 单 侧 检 验 的 原 假设 是 当前 数据 的 效应 量 小 于 SESOI 的 下 限 AL; 
另 一 次 单 侧 检 验 的 原 假设 则 是 当前 数据 的 效应 量 大 于 SESOI 的 上 限 AU。 最 后 结合 两 个 单 侧 检 验 的 统计 结果 进行 
等 价 检验 的 推断 ， 当 且 仅 当 TOST 中 的 两 个 p 值 均 小 于 a 水 平时 ， 依 据 NHST 框 架 的 逻辑 拒绝 原 假设 ， 可 以 接受 
备 择 假设 (“不 存在 有 意义 的 效应 ”)。 此 时 研究 者 可 以 认为 存在 统计 上 的 等 价 性 结果 ， 即 此 效应 足够 小 ， 在 这 一 


即 统计 结 果 不 能 支持 等 价 的 结论 (Lakens, Scheel, & Isager, 2018). 


研究 群体 中 是 可 以 忽略 的 。 但 只 要 TOST 中 有 一 个 p 值 大 于 a 水 平 ， 就 无 法 拒绝 原 假设 (“存在 有 意义 的 效应 ”)， 


值得 注意 的 是 ， 等 价 检验 也 可 以 通过 基于 参数 估计 的 方法 实现 。 频 率 统计 框架 下 ， 研 究 者 可 以 估计 效应 的 


值 及 其 置信 区 间 ( 王 瑞 等 ,2019)， 然 后 根据 效应 量 置信 区 间 与 SESOI H 


E 合 的 比例 进行 反 


2.2 贝 叶 斯 估计 的 原理 


Ellr(Tryon, 2001). 


相 比 于 基于 频率 学 派 统计 的 等 价 检 验 ， 贝 叶 斯 估计 是 基于 贝 叶 斯 学 派 统计 的 一 种 评估 零 效 应 的 方法 。 贝 叶 
斯 统计 (Bayesian statistics) 与 频率 统计 (Frequentist statistics) 的 主要 区 别 在 于 对 概率 (probability) 的 理解 。 频 率 中 的 


概率 表示 在 无 数 次 的 重复 抽样 中 对 于 频率 (frequency) 的 期 望 ， 即 长 期 行为 表现 的 结果 。 而 贝 叶 斯 统计 中 的 概率 表 
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示 基 于 已 有 的 信息 ， 发 生 当 前 事件 的 可 信 程度 (credibility)(Kruschke, 2014; McElreath, 2018)。 具 体 到 推断 统计 中 ， 
频率 统计 认为 总 体 参数 为 固定 值 ， 而 贝 叶 斯 统计 认为 总 体 参数 是 对 应 概率 分 布下 的 随机 取 值 ， 并 且 概 率 分 布 可 
以 随 着 数据 的 获取 而 不 断 更 新 。 贝 叶 斯 统计 的 核心 是 贝 叶 斯 法 则 (Bayes rules)。 如 果 我 们 为 了 估计 某 一 总 体 分 布 


的 参数 (0) 而 抽取 了 一 定 样本 或 “数据 ”(data)， 基 于 贝 叶 斯 法 则 可 以 得 到 下 述 公 式 : 
P(8)P(data|0) 
P(data) 


P(0|data) = 


(1) 

其 中 ，P(6ldata) 表 示 基 于 数据 得 到 的 未 知 参数 对 应 的 概率 分 布 ， 即 后 验 分 布 (posterior distribution); P(6) 表 
示 在 获得 数据 前 对 于 参数 取 值 的 信念 ， 即 先 验 分 布 (prior distribution; P(datal9) 表 示 当 参数 值 为 6 时 ， 当 前 数 
据 的 概率 或 概率 密度 ， 即 似 然 性 (likelihood); P(data) 表 示 的 是 所 有 可 能 参数 下 出 现 当前 数据 的 似 然 性 的 总 合 。 
在 给 定 先 验 分 布 和 数据 的 似 然 性 之 后 ， 得 到 的 后 验 分 布 表示 同时 考虑 先 验 信息 和 数据 表现 的 情况 下 总 体 参 数 的 
概率 分 布 。 简 而 言 之 ， 贝 叶 斯 统计 可 以 随 着 数据 的 累积 不 断 更 新 后 验 ， 进 而 改变 对 参数 不 同 取 值 的 可 信 度 
(Kruschke & Liddell, 2018). 

应 用 贝 叶 斯 估计 评估 有 零 效 应 时 ， 通 过 比较 效应 为 零 时 的 参数 概率 分 布 与 后 验 分 布下 参数 概率 分 布 的 差异 ， 
进行 统计 推断 (Kirkwood & Westlake, 1981; Rouder, 2014; Westlake, 1976)。 这 里 的 后 验 分 布下 参数 概率 分 布 使 用 最 
高 密度 区 间 (highest density interval, HDD 表 示 ， 而 效应 为 零 时 的 参数 概率 分 布 是 研究 者 预先 设 定 的 实际 等 价 区 
(region of practical equivalence, ROPE)(Kruschke, 2014). ROPE 类 似 于 前 文 介绍 的 等 价 检验 中 SESOI， 是 一 个 包括 
零 的 几乎 可 以 忽略 的 效应 区 间 。 确 定 ROPE 后 ， 可 以 考察 参数 后 验 分 布 的 95%HDI 与 ROPE 的 重合 度 来 评估 零 
效应 。 评 估 会 出 现 三 种 不 同 的 情况 : 接受 零 效应 (图 1D)、 拒 绝 零 效应 (图 1F) 或 者 难以 做 出 明确 判断 (图 
1E). AMA, 4 95%HDI 完全 落 在 ROPE 之 内 时 ， 说 明 可 能 性 最 高 的 参数 实际 上 等 价 于 0， 因 此 可 以 接受 零 
效应 ; 当 95%HDI Al ROPE 部 分 重合 时 ， 意 味 着 只 有 部 分 可 能 性 高 的 参数 取 值 等 价 于 0， 从 而 并 不 能 做 出 明确 判 
i; “4 95%HDI 完全 落 在 ROPE 之 外 时 ， 说 明 可 能 性 最 高 的 参数 全 部 都 不 等 价 于 0， 因 此 可 以 拒绝 零 效应 
(Kruschke, 2011)。 总 之 ， 研 究 者 可 以 将 HDI 与 围绕 零 效 应 建立 的 ROPE 进行 比较 以 评估 零 效 应 。 

值得 注意 的 是 ， 贝 叶 斯 估计 本 身 是 基于 数据 进行 模型 拟 合 的 过 程 ， 因 此 研究 者 可 以 使 用 不 同 的 先 验 !: 和 不 同 
的 模型 。 在 这 个 过 程 中 ， 需 要 考虑 先 验 分 布设 定 的 合理 性 以 及 MCMC 抽样 收敛 (convergence)， 有 具体 可 以 参考 


Depaoli 和 Schoot (2017)。 


! 值得 注意 的 是 ， 先 验 的 设置 是 否 合理 有 时 难以 判断 ， 尤 其 是 先 验 设 定 对 后 验 的 影响 上 。 因 此 ， 对 先 验 进行 先 验 预测 
检验 (Prior predictive check) 也 非常 重要 的 ， 有 兴趣 的 读者 可 以 参考 McElreath (2020) 的 Statistical Rethinking: A Bayesian 


Course with Examples in R and STAN (2nd ed.) 一 书 的 第 四 章 。 
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2.3 贝 叶 斯 因子 的 原理 


Ui 


~ 


us 


型 比较 


型 


。 这 


斯 因子 虽然 也 属于 贝 叶 斯 统计 ， 但 
的 方式 ， 获 得 给 定数 据 下 不 同 模 
里 的 模型 对 应 于 NHST 中 ， 即 Ho 模型 或 Hi 模型 。 上 文 式 (1) 中 的 P(datal6) 除 了 表示 基于 参数 的 先 验 分 


H 在 Yl 


型 相对 的 可 信 程 度 。 它 尝试 


布 得 到 当前 数据 的 似 然 性 ， 


H 
Li 


还 可 以 到 标 模 型 Ho 或 Hi 为 真 的 时 候 ， 


LIT 


回答 的 问题 是 当前 数据 相对 地 


pa 


估 零 效应 时 的 思路 与 贝 叶 斯 估计 不 同 。 其 基本 思路 是 


过 模 


通 


iran 


符合 哪个 模 


8 现 当 前 数据 的 概率 。 而 贝 叶 斯 因 


是 以 这 两 者 的 比值 定义 的 (Keysers, Gazzola, & Wagenmakers, 2020; Wagenmakers et al., 2018): 


其 中 ，BFo 的 下 角 标 中 0 在 前 ，1 在 后 ， 表 示 BFo 为 Ho 相对 了 
中 的 分 子 分 母 颠倒 ， 表 示 Hi 相对 于 Ho 的 贝 叶 斯 因子 。 当 我 们 计算 得 到 BFo = 9 时 ， 表 示 当 前 数据 4 
真 的 情况 下 的 概率 是 出 现在 Hi 为 真 的 情况 下 的 概率 的 9 倍 。 得 到 贝 叶 
据 支 持 两 个 模型 的 相对 强度 的 订 
(1961) 的 解释 提出 的 结果 分 类 陈述 。 例 如 ，BFo 在 [3, 10] 之 间 时 ， 可 以 解读 为 当前 数据 提供 


(Moderate evidence) 来 支持 原 


Bra EH 


作为 贝 叶 
用 元 分 析 得 到 


一 个 标准 化 的 先 验 ， 比 如 在 贝 叶 


_ P(data | H,) 
" — P(data|H,) 


F Hi Hy D 


叶 


F 据 。 关 于 贝 叶 斯 因子 的 解 和 


假设 〈Ho )。 


断 的 一 种 方法 ， 贝 叶 斯 APE BF} 


因子 


BayesFactor 将 默认 的 先 验 设 定 为 Cauchy(0, 0.707)。 


4 等 价 检验 、 贝 叶 斯 估计 、 贝 叶 斯 因子 的 应 用 和 比较 


接 下 来 ， 我 们 采用 两 个 真实 的 数据 来 演示 以 上 三 种 方法 的 应 月 
本 1 检验 ， 且 pp 值 未 达到 显著 水 平 。 我 们 分 别 采用 
行 分 析 ， 并 从 评估 零 效应 的 能 力 、 是 否 / 


ik. ath 


2017)， 贝 叶 


斯 估计 采 朋 


A^ 
^ 


价 检验 、 贝 叶 斯 估计 入 


mu 


TH 


(2) 


斯 因子 。 反 之 ，BF1io 就 是 将 式 (2) 


上 现在 Ho 为 


斯 因子 之 后 ， 我 们 可 以 依据 其 大 小 得 到 数 


， 可 以 参考 Lee 和 Wagenmakers (2013) 2&4 


F Jeffreys 


=j 


了 中 等 强度 的 证 地 


E 验 的 选择 。 一 般 根据 先前 研究 确定 
的 效应 量 及 其 对 应 的 分 布 作为 先 验 。 而 对 于 没有 相关 元 分 析 的 原创 性 研究 ， 更 常见 的 做 法 是 使 用 
斯 1 检验 中 ， 用 柯 西 分 布 作为 备 择 假设 的 先 验 (Rouder, Speckman, Sun, Morey, & 
Iverson, 2009), 8 ~ Cauchy(x = 0, y = 1)。 为 了 让 备 择 假 设 的 先 验 更 符合 现实 ， 常 用 的 计算 贝 叶 斯 


H 


UP 


比如 使 


因子 的 R 包 


。 这 两 个 例子 在 NHST 框架 下 均 采 用 独立 样 
斯 因子 的 方法 重新 对 两 个 数据 进 


J]J] SESOI/ROPE, 


E 
FE 
N 


rE YS R 统计 软件 包 4.0.2 (R-Core-Team, 2019)。 其 中 ， 等 价 检验 使 用 上 


否 报告 不 确 和 


定 信 AA 


[可 拓展 性 方 


外 比 较 了 三 种 方 


的 是 TOSTER 1 


H BEST 工具 包 (Kruschke & Meredith, 2020)， 贝 叶 斯 


因子 采用 


Rouder, 2018)。 两 个 实例 的 分 析 结 果 为 典型 的 两 种 情况 。 其 中 ， 实 例 1 展示 的 是 数 和 
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[ 具 包 (Lakens,， 


BayesFactor 1 


i &(Morey & 


无 较 强 证 据 文 


竺 零 效应 的 情 


况 ， 而 实例 2 展示 的 是 数据 相对 较 强 地 支持 零 效应 的 情况 。 分 析 涉 及 的 所 有 的 数据 、 人 代码、 结果 及 其 角 


osf-io/54qpv/. 


4.1 实例 1: Kitchen Rolls 


释 见 


a 


实例 1 的 数据 来 自 JASP(jasp-stat.org) 分 析 软 件 的 示例 数据 “Kitchen Rolls”。 该 数据 源 自 Wagenmakers 等 
(2015) 对 Topolinski 和 Sparenberg (2012) 进 行 的 重复 研究 。 原 研究 的 第 二 个 实验 中 ， 两 组 被 试 分 别 以 顺 时 针 方向 
CN; — 300 和 逆 时 针 方 向 CN = 30) 拨 动 卷 纸 ， 然 后 填写 一 个 测量 开放 性 的 问卷 。 结 果 发 现 ， 相 比 于 逆 时 针 拨 


动 的 被 试 ， 顺 时 针 拨 动 的 被 试 的 开放 性 得 分 更 高 ，!58) = 2.21, p < .031, d=0.58. 


Wagenmakers 等 (2015) 在 预 注册 


之 后 ， 重 复 了 该 研究 的 实验 二 。 研 究 的 数据 包含 两 组 被 试 在 开放 性 人 格 特质 上 的 得 分 ， 其 中 一 组 被 试 在 填写 问 
卷 前 顺 时 针 旋 转 桌 面 上 的 纸 卷 (M=48)， 而 另 一 组 则 在 填写 问卷 前 逆 时 针 旋 转 纸 卷 (NMz= 54)。 我 们 采用 NHST、 
等 价 检 验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 四 种 统计 方法 的 双 侧 独立 样本 :检验 来 分 析 该 数据 ， 以 评估 零 效 应 。 由 于 等 


价 检验 和 贝 叶 斯 估计 在 统计 过 程 中 需要 


ae 


18J SESOI 或 ROPE， 因 此 首先 确定 SSEOI。 本 分 析 参 考 Simonsohn 


(2015) 提 出 的 重复 研究 中 确定 SESO 边界 的 方法 ， 将 SESO 的 等 价 边界 设置 为 原 研究 样本 量 之 下 ，33% 检 验 力 
可 探测 到 的 效应 量 ， 即 SESOI 为 [-0.40, 0.40] (计算 过 程 见 在 线 R Notebook, osfio/gn2hm/). 

NHST 未 发 现 两 组 被 试 在 开放 性 上 的 得 分 差异 达到 统计 显著 ，t(100)=-0.75，p=.453， 即 未 能 拒绝 原 假设 ， 
但 也 无 法 提供 支持 零 效 应 的 证 据 。 贝 叶 斯 因子 则 为 零 效应 提供 了 中 等 强度 的 证 据 ，BFoiE (3, 10)， 具 体 而 言 ， 


不 同 先 验 一 一 Cauchy (0, 0.707)、Cauchy (0, 1). Cauchy (0, 1.5) 一 一 之 下 的 贝 叶 


斯 因子 分 别 为 BFu= 3.71、5.02、 


7.31。 等 价 检验 和 贝 叶 斯 估计 的 结果 基本 一 致 ， 即 证 据 不 足 ， 无 法 判断 数据 是 否 支 持 零 效应 。 具 体 表现 为 ， 在 
贝 叶 斯 估计 中 ，95%HDI 和 ROPE 部 分 重合 ， 在 等 价 检验 中 ，TOST 左 侧 的 p 值 大 于 水平 ， 因 此 均 无 法 拒绝 原 


假设 (图 2A)。 综 合 三 种 方法 ， 可 认为 该 数据 无 法 为 零 效 应 提供 较 强 的 证 据 ， 


Jr. 


4.2 实例 2: Sociometric status and well-being 


同时 也 无 法 为 效应 的 存在 提供 较 


强 的 证 据 。 这 表明 ， 研 究 者 需要 进一步 判断 实验 设计 或 者 数据 分 析 中 可 能 存在 的 问题 ， 并 进行 下 一 步 研究 和 分 


实例 2 的 数据 来 自 ManyLabs 2 MEH Cosfio/uazdm/) 中 的 一 个 研究 。Many Labs 2 由 36 个 国家 和 区 域 的 不 同 
实验 室 合力 完成 ， 共 重复 了 28 个 经 典 的 实验 ， 总 样本 量 达 15305(Klein et al., 2018)。 实 例 2 的 数据 来 自 报告 中 的 


第 12 个 重复 研究 “Sociometric status and well-being”。 该 研究 重复 原 研 究 中 的 实验 三 ， 探 究 相 对 于 社会 经 济 地 位 ， 


202001.00113v5 


chinaXiv 


社会 关系 地 位 与 幸福 感 的 关系 是 否 更 紧密 (Anderson, Kraus, Galinsky, & Keltner, 2012)。 原 研究 中 报告 了 一 个 显著 
的 简单 效应 分 析 结 果 ， 相 对 低 社会 关系 地 位 条 件 的 被 试 ， 高 社会 关系 地 位 条 件 的 被 试 有 更 高 的 主观 幸福 感 ， 
(115) = 3.05, p = 0.003, d = 0.57, 95% CI [0.20, 0.93]. Many Labs 2 主要 重复 了 原 研究 中 主观 幸福 感 有 差异 的 低 社 
会 关系 地 位 条 件 和 高 社会 关系 地 位 条 件 ， 共 采集 了 6905 个 样本 。 同 实例 1， 我 们 用 四 种 统计 方法 下 的 双 侧 独立 
样本 t 检 验 分 析 了 该 数据 。 在 分 析 之 前 ， 我 们 同样 采用 实例 1 的 方式 确定 SESOI 和 ROPE 为 [-0.20, 0.20]. 

NHST 未 发 现 显 著 的 效应 ，4(6903) = -1.76, p = .08， 同 样 未 能 拒绝 原 假 设 ， 但 也 无 法 提供 支持 零 效 应 的 证 据 。 
然而 等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 的 统计 检验 结果 均 支 持 了 零 效 应 〈 图 2B )。 对 于 等 价 检验 和 贝 叶 斯 估 
计 ， 两 组 差异 效应 量 的 90%CI 或 90%HDI 均 完全 落 在 SESOI 和 ROPE 内 。 贝 叶 斯 因子 在 Cauchy (0, 0.707)、 
Cauchy (0, 1), Cauchy (0, 1.5) 三 种 先 验 分 布下 的 结果 分 别 为 : BFoi= 7.87、11.11、16.64， 达 到 了 中 等 和 较 强 程度 
支持 零 效 应 的 证 据 (Lee & Wagenmakers, 2013)。 其 中 ， 当 先 验 分 布 的 尺度 参数 变 大 时 ，BFoi 趋向 于 提供 较 强 程度 
支持 零 效 应 的 证 据 。 三 种 评估 零 效 应 的 方法 一 致 支持 了 零 效 应 ， 研 究 者 可 以 较 有 信心 地 推断 目标 效应 为 零 。 


A 假设 显著 性 检验 等 价 检验 贝 叶 斯 估计 贝 叶 斯 因子 
t = 1.263 £ =-2.77 
p=0.105 p=0.003 
R 最 上 H 30 
t 小 | D 5 较 强 证 据 _HO 
x 感 1 1 感 10 
= X 1 IX 默认 先 验 T 
E i Ë Sr En 
x CR w 
E 1 ! K e 较 能 证 据 _H0 
限 i | 限 1 
较 弱 证 据 _H1 
1 | £(100)=-0.754, p= 0.453 | ] 90% HDI 13 
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旋转 方向 组 间 差异 (Cohen's d) 组 间 差异 (Cohen's d) 先 验 分 布 参数 (Cauchy scale) 
零 效应 评估 实例 1 《证 据 不 足 ， 无 法 判断 《证 据 不 足 ， 无 法 判断 > 《中 等 证 据 支 持 H0> 
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2 
1 1 =6.55 t =-10. 
p<0.001 peo. wr 
E ] q 100 
m o 最 | E: 最 最 3 非常 强 证 据 H0 
a 2 2 ' ， En PN UGE Bug HO 
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高 分 组 低 分 组 -03 -02 -01 00 01 02 03 -02 1 0.0 0.1 0.2 0 025 05 075 1 125 15 
社会 关系 地 位 得 分 组 间 差异 (Cohen's d) 组 间 差 异 (Cohen's d) 先 验 分 布 参数 (Cauchy scale) 
零 效 应 评估 实例 2 《支持 H0》 《支持 H0> < 中等/ 较 强 证 据 支 持 H0> 
t t 1 


图 2， 四 种 统计 检验 对 两 个 实例 数据 的 分 析 结 果 与 推论 。 零 效应 评估 实例 1 CAO 和 实例 2 CBO 均 用 传统 原 假 设 检验 、 等 价 检 


验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 对 数据 进行 分 析 ， 其 中 后 三 种 方法 均 可 以 用 来 评估 零 效应 。 


4.3 等 价 检验 、 贝 时 斯 估计 、 贝 叶 斯 因子 的 比较 


E NHST 框架 下 ， 以 上 两 个 实例 数 


当前 数据 可 以 证 明 零 


居 均 没有 得 到 p < .05 的 结果 ， 即 未 能 # 
效应 的 存在 。 实 例 1 的 结果 表明 ， 虽 然 NHST 得 
贝 叶 斯 因子 分 析 均 表明 该 数据 并 不 能 为 零 效 应 提供 较 强 的 证 据 。 


到 


E 绝 原 假 设 。 然 而 ， 这 并 不 意 
的 p 值 较 大 ， 但 等 价 检验 、 


味 着 
贝 叶 斯 估计 、 


而 实例 2 的 结果 则 表明 ， 目 标 效 应 量 与 事先 确 


定 的 近似 于 零 的 区 间 (SESOVROPE) 无 差别 ， 而 贝 叶 斯 因子 也 提供 了 较 强 的 支持 零 效 应 的 证 据 ， 因 此 可 以 得 到 
零 效 应 的 推论 。 两 个 实例 数据 的 研究 设计 相对 简单 ， 因 此 三 种 方法 均 可 以 使 用 。 但 在 更 加 复杂 的 研究 设计 中 ， 
是 否 能 够 同时 使 用 三 种 方法 可 能 需要 进行 深入 地 考察 。 以 TOSTER 包 为 例 ， 等 价 检验 目前 只 包括 了 检验 、 元 
分 析 、 相 关 分 析 等 方法 (Lakens, 2017)， 这 意味 着 其 可 拓展 性 方面 存在 限制 。 为 了 帮助 研究 者 采用 合适 的 方法 ， 
本 文 从 几 个 维度 对 NHST 和 三 种 方法 进行 比较 ( 表 D. 
de 1. 原 假设 检验 、 等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 的 特征 及 其 对 比 。“O” 表 示 有 此 特征 ,“X” 表 示 无 此 特征 。 
特 生 原 假设 检验 等 价 检验 # 贝 叶 斯 估计 贝 叶 斯 因子 ” 
能 和 否 拒绝 零 效应 O X O O 
能 否 支 持 零 效应 X O O O 
是 否 用 到 最 小 感 兴趣 区 
(SESOI/ROPE) ^ a : i 
是 否 报告 不 确定 信息 X O O X 
可 拓展 高 低 高 中 
# 此 处 对 等 价 检 验 的 可 拓展 性 方面 的 评估 主要 基于 当前 可 用 的 工具 TOSTER。 
* 此 处 对 贝 叶 斯 因子 的 可 拓展 性 评估 主要 基于 JASP 和 BayesFactor 工具 包 。 
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等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因 


子 均 可 以 ) 


研究 者 在 得 到 不 显著 
持 零 效应 ， 
这 意味 着 研究 者 需要 


结果 时 ， 


前 确定 一 个 


SESOI. 


ar 


拓展 性 上 来 看 ，NHST 与 贝 叶 


可 以 采 月 


第 三 ， 等 价 检验 和 贝 叶 斯 估计 
首 绘 了 参数 的 不 同 取 值 出 现 的 相对 概率 (Kruschke & Liddell, 2018); 而 贝 叶 斯 因 


合理 的 区 间 ， 


| 提供 


j 来 支持 零 效 应 ， 这 
日 这 三 种 方法 进一步 从 不 显赫 结果 中 提取 信息 。 其 
使 用 等 价 检验 与 贝 叶 斯 估计 均 需 要 使 ) 


H 


才能 


10 


进行 合理 的 于 
SRY HET A 


子 未 提供 i 


次 ， 如 


因子 时 ， 


定性 的 信息 ， 且 后 者 提供 


是 它们 区 别 于 NHST 之 处 。 因 此 ， 


RE 


究 者 希望 文 


J SESOI(Kruschke & Liddell, 2018; Lakens, Scheel, & Isager, 2018), 
Er. (Act EE DHR 


ft, c 


fi KE 


则 不 需 需要 入 


这 些 信息 


的 不 确定 


EAS, 
。 第 四 ， 从 可 


定 信 ， 


斯 估计 均 能 够 灵活 地 运用 于 各 种 统计 推断 的 情境 之 中 (Kruschke & Liddell, 2018; 


Kruschke & Meredith, 2020)， 但 是 贝 叶 斯 因子 和 等 价 检验 目前 仍然 较为 限制 。 具 体 而 言 ， 贝 叶 斯 因子 目前 主要 可 
用 于 1 检验 、 相 关 分 析 、 方 差分 析 和 线性 回归 分 析 等 常用 的 统计 模型 (Morey & Rouder, 2018); 而 等 价 检验 (基于 
元 分 析 和 相关 分 析 (Lakens, 2017)。 对 于 更 加 复杂 的 研究 设计 ， 如 中 介 、 调 节 分 析 
贝 叶 斯 因子 和 等 价 检 验 尚 无 可 实现 分 析 的 代码 。 但 是 贝 叶 斯 估计 则 能 够 应 用 于 这 些 复 杂 的 情境 之 中 
(Kruschke & Meredith, 2020)， 如 通过 R 工具 包 brms 进行 贝 叶 斯 混合 线性 模型 分 析 (Biirkner, 2017). 

除了 三 种 方法 原理 特征 上 的 差异 外 ， 随 着 样本 量 、 等 价 区 间 的 变化 ， 三 种 方法 的 统计 检验 力 ( 即 效应 量 真 
值 在 等 价 区 间 内 时 ， 统 计 结 果 判 断 为 等 价 的 概率 ) 也 有 不 同 。Linde, Tendeiro, Selker, Wagenmakers, fH 
一 系列 的 模拟 发 现 贝 叶 斯 因子 相对 另外 两 种 方法 有 更 强 的 统计 检验 力 ， 并 且 在 样本 相对 
较 小 的 时 候 有 更 高 的 辨别 力 。 

类 似 地 ， 以 上 述 两 个 实例 的 具体 参数 样本 量 、 等 价 边界 ) 作为 模拟 参考 ， 我 们 的 模拟 也 发 现 ， 当 效应 量 
真 值 在 区 间 [0, 0.5] 时 ， 贝 叶 斯 因子 的 统计 检验 力 《〈 即 真实 效应 量 落 在 等 价 区 间 ， 统 计 方法 推断 可 以 看 作 是 效应 
量 为 零 的 比例 ) 较 高 。 但 同样 ， 其 假 阳 性 也 更 高 〈 即 真实 效应 量 不 在 等 价 区 间 ， 但 统计 方法 的 结果 认为 其 效应 
量 可 以 看 作为 零 的 概率 )〈 见 图 3)。 贝 叶 斯 因子 较 高 的 敏感 性 在 样本 量 小 的 时 候 更 加 明显 ， 因 此 贝 叶 斯 因子 可 能 
是 小 样本 研究 中 用 以 支持 零 效 应 较 好 的 方法 ， 而 适当 收 紧 其 判断 标准 〈 如 将 BFot>10 作为 等 价 标准 ， 而 非 


TOSTER) 主要 可 用 于 1 检验 、 


A 
wy? 


Ravenzwaaij (2020) 通 


in| 


in| 


BFo1>3) 是 权衡 其 较 高 统计 检验 力 和 较 高 一 类 错误 的 有 效 集 略 之 一 。 


202001.00113v5 


chinaXiv 


零 效应 评估 实例 1 


Kitchen rolls (N=102, 等 价 边 界 =+0.4) 


零 效 应 评估 实例 2 


Sociometric status and well-being (N=6905, 等 价 边 界 =+0.2) 


1.0 一 类 错误 一 类 错误 
(Type | Error) (Type I Error) 
08]... SA 
- bull e = 一 等 价 检验 
= ^ -- 贝 叶 斯 估计 
gr =. -， 贝 叶 斯 因子 (BFo1>3) 
| P .， 贝 叶 斯 因子 (BFo1>10) 
= d 
- 
0.2 1 
0.0 1 
0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 
效应 量 真 什 效应 量 真 值 
图 3. 等 价 检 验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 在 不 同样 本 量 、 等 价 边界 上 的 统计 检验 力 及 一 类 错误 率 。 当 效应 量 真 值 小 于 等 价 边 
界 时 ， 通 过 统计 推断 结果 应 判断 为 “等 价 ” 即 纵 坐 标 推断 为 等 价 的 比例 反映 的 是 三 种 方法 的 统计 检验 力 ; 而 当 效应 量 真 值 大 于 等 


价 边界 时 图 中 阴影 部 分 )， 纵 坐标 反映 的 则 是 三 种 方法 的 一 类 错误 率 。 


11 


三 种 方法 相对 于 


NHST 均 可 以 用 于 文 持 


SESOI 弥 补 了 NHST 功能 上 的 缺陷 ， 即 不 能 


ESTA 


比较 当前 


2018)。 贝 叶 


数据 在 两 个 相互 竞争 的 模型 中 出 
斯 估计 则 通过 估计 后 验 分 布 的 95%HDI 与 类 似 于 等 价 检验 中 SESO 概念 的 ROPE 进行 比较 得 到 结论 。 


其 所 在 的 统计 框架 仍 为 频率 统计 ， 即 将 统计 推 
于 贝 叶 斯 统计 框架 下 的 贝 叶 斯 


因子 和 贝 叶 


斯 估计 则 有 所 


ze 


断 建立 在 无 数 次 的 习 


效应 ， 然 而 结果 解释 


EE HH 


上 存在 理论 上 的 区 别 。 等 价 检验 


推断 效应 不 存在 (Greenland et al., 2016; Wasserstein & Lazar, 2016). 


` 


E 


中 对 于 频率 (frequency) 的 期 望 ] 


区 别 。 


Jd 


过 引入 


上 。 而 基 


贝 叶 斯 因子 的 统计 推断 本 质 上 基于 模型 比较 ， 即 


见 的 相对 概率 (Keysers et al., 2020; Wagenmakers et al., 2018; 胡 传 鹏 et al., 


推断 的 形式 上 ， 贝 叶 斯 估计 和 等 价 检验 相似 ， 然 而 前 者 的 HDI 与 后 者 的 CI 在 对 概率 的 认识 上 存在 本 质 上 的 区 


别 ， 也 即 贝 叶 斯 统计 和 频率 统计 之 间 对 概率 不 同 认识 上 的 


5 总 结 与 建议 


心理 


中 )， 等 价 检验 、 贝 叶 


缺陷 ， 


行 选择 合适 


斯 估计 和 贝 
帮助 研究 者 进 一 
方面 存在 差异 ， 各 有 特点 ,而 
的 方法 ， 可 以 参考 补充 材料 中 的 流程 


叶 斯 因 


LE 学 研究 中 不 同 的 统计 方法 正在 相互 融合 中 共同 发 展 ( 温 忠 类 


步 区 分 “有 


使 用 ， 避 人 免 滥 用 和 误 


较 可 靠 的 做 法 ， 例 如 J 
析 前 3 


评估 零 效应 的 时 候 ， 以 下 三 点 值得 举 


所 采用 的 SESOIROPE， 并 论证 其 合理 性 ， 如 果 采 用 贝 叶 斯 


行 预 注册 。 预 注册 中 可 以 提供 记 


1(Gigerenzer, 2018). 


证 据 支 持 零 效 应 ”和 “没有 订 
究 者 可 以 根据 当前 研究 的 情况 选择 合适 的 方法 。 
图 (补充 材料 ， 图 s1), {Ah 


其 


y= ar 
E. 
Cy 


FA 
ER 


e AN 


SEN 


， 如 果 采 用 等 价 检 验 和 贝 叶 
i 计 或 者 贝 叶 斯 
同时 采用 多 种 分 析 方 法 ， 交 义 验 证 同一 个 结果 可 


区 别 IKruschke, 2014; McElreath, 2020). 


, 方 杰 , Wise Ea, 谭 倚 天 , 李 定 欣 , amt ba, 印刷 
子 等 统计 方法 的 出 现 ， 一 定 程度 上 弥补 了 传统 NHST 无 法 评估 零 效 应 的 
FE 据 支持 有 效应 ”这 两 种 情况 。 三 种 方法 在 多 个 


典型 心理 学 


究 情 境 下 应 如 何 进 


TEX RE 


WP. me Berea WTR AD AY 


上 文 的 两 个 实例 分 别 使 


} 


j 三 种 方法 评估 零 效应 。 


估 零 效应 的 相应 方法 和 参数 ， 比 如 SESOU/ROPE 和 


E 验 的 确定 。 


斯 估计 的 方法 ， 需 要 清楚 地 报告 


LE 解 方法 的 基础 上 


CUS X R. 
比 


Akb E 
H5 XE 


kt 三， 我 们 建议 在 研究 开始 前 或 者 数据 分 
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Evaluating null effect in psychological research: A practical primer 


Abstract 


In psychological researches, investigators need to provide not only evidence for the existence of effects, but also 
evidence for the non-existence of effects under some circumstances. However, the most widely used statistical inference 
framework in psychology, the null hypothesis significance test (NHST), cannot distinguish the evidence of absence from 
the absence of evidence. Here we introduced three methods, the equivalence test, Bayesian estimation, and Bayesian 
factor (BF), to Chinese researchers with two public datasets. Moreover, we compared these three methods from the 
following dimensions: whether a predetermined interval is needed; whether the test provided uncertainty information and 
whether the method is scalable in practice. By doing so, we provided practical tips for researchers who wish to apply 
these methods in their own researches. The current primer may help researchers to understand these methods for further 


application in their own research. 


Keywords: Null effect; p value; Equivalence test; Bayesian estimation; Bayesian factor 
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最 小 感 兴趣 区 (SESOD 与 实际 等 价 区 (ROPE) 的 确定 

在 等 价 检验 和 贝 叶 斯 估计 中 ， 都 会 使 用 一 个 区 间 来 定义 一 个 足够 小 的 ， 或 者 说 可 以 被 忽略 的 效应 。 在 等 价 
检验 中 ， 称 为 最 小 感 兴趣 区 (SESOI)， 而 贝 叶 斯 佑 计 将 其 定义 为 实际 等 价 区 (ROPE)。 其 他 领域 的 研究 者 还 会 
使 用 其 他 名 称 ， 如 临床 领域 的 临床 等 价 区 间 (interval of clinical equivalence)(Lesaffre, 2008) 和 药理 学 的 等 价 区 间 
(equivalence interval)(Schuirmann, 1987) 等 。 但 这 些 概念 本 质 上 是 相似 的 ， 都 是 为 了 定义 一 个 包括 零 效应 在 内 的 足 


够 小 的 区 间 ， 或 者 说 更 符合 实际 研究 情况 的 零 效 应 。 由 于 ROPE 与 SESOI 的 相似 ， 下 文 将 仅 从 SESOI 视角 介绍 。 


通过 检验 目标 效应 与 该 区 间 的 相对 关系 可 推断 当前 数据 支持 零 效 应 、 拒 绝 零 效应 还 是 无 法 做 出 判断 (Kruschke & 


Meredith, 2020; Lakens, Scheel, & Isager, 2018)。 当 前 数据 的 效应 量 区 间 一 定时 ， 如 果 SESOI 比较 宽松 ， 则 效应 量 


区 间 可 能 完全 落 在 SESOI 内 ， 得 到 支持 零 效 应 的 推断 ， 而 SESOI 范围 较 小 时 ， 效 应 量 区 间 可 能 未 完全 在 SESOI 


内 ， 得 到 无 法 判断 当前 数据 是 否 支持 零 效 应 的 结论 。 因 此 SESOI 的 设 定 会 直接 影响 零 效 应 评估 的 结论 。 


SESOI 的 设 定 需要 具体 问题 具体 分 析 。 但 是 无 论 使 用 何 种 方法 ， 研 究 者 均 需 要 对 其 设 定 合理 性 进行 说 明 


(Lakens et al., 2018). 


通常 ， 当 研究 者 所 感 兴趣 的 效应 量 已 经 有 先前 研究 进行 过 探索 ， 则 可 以 参考 先前 研究 的 结 


果 。 例 如 ，Simonsohn (2015) 建 议 ， 在 重复 研究 中 ， 可 将 SESO 的 等 价 边界 设置 为 之 前 研究 的 33% 检 验 力 可 探测 
到 的 效应 。 其 理由 在 于 ， 检 验 力 低 于 33% 时 得 到 的 效应 有 多 于 66% 的 概率 得 到 的 显著 结果 是 不 可 信和 的 


(Simonsohn, Nelson, & Simmons, 2014)。 但 Simonsohn (2015) 的 建议 并 非 唯 一 的 建议 ，Kordsmeyer 和 Penke (2017) 


则 建议 ， 在 重复 性 研究 中 ， 可 将 SESO 的 等 价 边界 设 定 在 先前 研究 的 平均 效应 量 上 ， 并 检验 当前 数据 是 否 显著 
点 


小 于 之 前 研究 平均 水 平 的 效应 量 。 然 而 这 种 方法 无 法 排除 先前 研究 随机 性 和 出 版 偏见 的 影响 。 此 外 ， 还 有 观点 


认为 可 以 将 等 价 边界 设 定 在 之 前 研究 正好 可 以 观测 到 显著 效应 的 临界 值 (Lakens et al., 2018)。 男 一 个 可 能 更 稳健 


的 方法 是 用 元 分 析 ， 


估计 效应 量 的 置信 区 间 (90% 或 9590) 的 下 边界 〈 效 应 为 正 的 情况 下 ) 作为 等 价 边界 


(Perugini, Gallucci, & Costantini, 2014)。 最 后 ， 值 得 注意 的 是 ， 在 频率 学 派 和 贝 叶 斯 派 两 种 不 同 的 统计 思想 的 框 


架 下 ，SSEOI 和 POPE 对 应 的 结果 解释 是 有 区 别 的 (Kruschke & Liddell, 2018; Kruschke & Meredith, 2020). 
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评估 零 效应 的 流程 图 
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等 价 检验 
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sl. 评估 零 效应 的 三 种 统计 方法 的 使 用 流程 。 等 价 检验 和 贝 叶 斯 估计 在 使 用 前 需 设 定 目标 效应 的 等 价 区 间 ， 而 贝 叶 斯 因子 不 用 
体 到 对 应 的 软件 或 编程 语言 ， 等 价 检验 、 贝 叶 斯 估计 和 贝 叶 斯 因子 分 别 可 以 使 用 R 中 的 TOST 包 、BEST 包 和 BayesFactor 包 实 
现 ， 其 中 贝 叶 斯 因子 还 可 以 使 用 JASP 软件 实现 ;三 种 方法 分 别 根据 各 自 特 定 的 评估 零 效 应 的 规则 ， 得 到 支持 零 效 应 、 拒 绝 零 效 应 
或 无 法 判断 的 结论 ; 若 无 法 判断 ， 研 究 者 还 可 以 考虑 扩大 样本 量 或 调整 实验 设计 ， 重 新 评估 零 效 应 。 
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